微生物多样性专题 | 扩增子测序分析实战(二)数据库整理之PR2
愿关注我们的人都能找到
属于自己的皮球
文:向屿 | 编辑:湖心
本文系原创转载需授权
微生物多样性专题
扩增子测序分析实战(二)
数据库整理之PR2
PR2数据库的文章2013年初发表在Nucleic Acids Research上,有兴趣的盆友可以看一下原文:https://www.ncbi.nlm.nih.gov/pubmed/23193267,针对18S测序分析上,该数据库算是比较公认且权威的数据库,但是我却一次都没打开过PR2数据库的官网:http://ssu-rrna.org/ ,所以就不能按照惯例粘主页的图了…实际上有没有主页不重要,只要能下到数据库的数据就行,哈哈~
PR2(Protist Ribosomal Reference database)数据库是专门针对真核生物小亚基SSU rRNA(即18SrRNA)基因的数据库。该数据库主要由原生生物序列构成,但为方便分析18S的高通量测序数据,数据库也包含了后生生物、陆地植物、大型真菌和真核细胞器(线粒体、质体等)的SSU序列,内含子和嵌合体序列已被去除。
PR2数据库其实一直在更新,最新数据可在https://figshare.com/articles/PR2_rRNA_gene_database/3803709下载,
这次有主页了:
数据最新更新日期为2017-01-21,点击Share【注意在Download边上】可以看到数据下载界面,如下:
点击Download all可以同事下载上面四个文件,但是直接下载pr2_gb203_version_4.5.zip即可~
解压后可见pr2_gb203_version_4.5.fasta【序列文件】和pr2_gb203_version_4.5.taxo【序列注释文件】,其中序列文件格式如下,不需要再做整理:
注释文件的格式如下:
每行注释信息分号隔开的列数的一致的,共8列,即8个水平的注释信息:
有没有看起来注释整齐又规范?动心了有木有,终于找到一个完美的18S数据库。但是!但是不可能没有问题的:
1,其注释信息中有很多后面接了N个_X的注释,表示当无法确切知道该分类水平的物种注释时,就在能确定的水平的注释后面加X,每增加一个分类水平,相应的增加一个X;【虽然看起来整齐了,但对分类来说,个人觉得没什么实际意义】
2,物种注释信息里并非全是上示8个分类水平的,会穿插一些其他水平或no rank的注释,例如上面的Alveolata,在NCBI上检索会发现,它是no rank:
我们在后续注释时不会保留no rank的物种,而只保留界门纲目科属种这7个分类水平的注释,同样,基于Tax_Rank_Annotation文件【详见 数据库整理之 taxdmp】,对该数据库进行整理,准确识别物种名称并添加rank信息,结局些许的不乐观:
经过统计,属种水平有注释的序列分别占总序列数(178094)的35%和42%。
最后还需要提到的是序列id的含义,如 GU824834.1.1056_U,可知该序列的accession号是GU824834,1和1056为序列的起始位置和终止位置,而末尾的U则表示未描述该序列是否包含内含子,以下是详细描述: